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摘 要 : 互联 网 技术 的 飞速 发 展 导 致 敏感 内 容 图 像 由 原先 基本 隐蔽 的 内 容 人 享 ， 传 统 基 于 图 像 
特征 提取 的 敏感 内 容 检 测 方法 不 再 适用 。 针 对 上 述 难点 ， 提 出 基于 稀疏 语义 和 双 层 深度 卷 积 神经 网 络 相 结 合 的 敏感 
内 容 检 测 方法 。 上 层 网 络 首先 进行 训练 样本 的 预 处理 ， 并 通过 构造 图 像 的 稀疏 语义 表示 作为 神经 网 络 的 输入 ， 而 下 
层 网 络 则 进一步 考虑 第 三 方 管控 机 制 〈 如 政府 代理 等 )， 提 出 针对 特定 群体 的 敏感 内 容 图 像 检 测 方 法 。 与 现 有 常用 
敏感 内 容 图 像 检 测 方 法 相 比 ， 提 出 的 检测 方法 可 有 效 降低 训练 样本 数量 ， 且 检测 精度 比 传统 图 像 检测 方法 〈 如 基于 
视觉 词 袋 方法 等 ) 提升 7% 以 上 。 
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Sensitive image detection method based on deep neural network and sparse semantics 


Ruxianguli+-Abudurexiti!, Yasen: Aizezi!i, Sun Guozi ? 
(1. Dept. of Information Security Engineering, Xinjiang Police College, Urumqi 830011, China; 2. Institute of Computer 
Technology, Nanjing University of Posts & Telecommunications, Nanjing 210003, China) 


Abstract: With the rapid development of Internet technology, sensitive content images have changed from basic concealed 
content exchange to mass data sharing. The traditional method of sensitive content detection based on image feature 
extraction is no longer applicable. To overcome these difficulties, this paper proposes a sensitive content detection method 
based on sparse semantics and double-layer deep convolution neural network. In this method, the upper network 
preprocesses the training samples and constructs sparse semantic representation of the image as the input of the neural 
network, while the lower network further considers the third-party control mechanism (such as government agents) and 
proposes a sensitive content image detection method for Specific groups. Compared with the existing image detection 
methods for sensitive content, the proposed method can effectively reduce the number of training samples, and the detection 
accuracy is more than 7% higher than that of traditional image detection methods (such as visual word bag method) . 

Key words: sensitive image detection; double-layer artificial neural network; deep learning algorithm; sparse semantic 


representation; visual word bag; skin detector. 


0 引言 为 导向 的 基于 深度 卷 积 神经 网 络 (convolution neural network, 
习 CNN) 来 获取 图 像 特征 的 敏感 图 像 检 测 方法 ， 使 用 批量 随机 
近年 来 ， 随 着 社交 互联 网 络 的 兴起 与 发 展 ， 新 兴 的 通信 梯度 下 降 算法 训练 卷 积 神经 网 络 以 获取 图 像 特 征 ,但 批量 梯 

和 计算 机 技术 的 进步 极 大 地 促进 了 世界 范围 内 媒体 数据 的 传 ” 度 下 降 算法 的 训练 精度 与 训练 速度 间 的 折 中 选取 依赖 于 人 为 
播 。 然而， 这 些 技术 的 发 展 也 使 得 人 类 能 够 更 方便 地 接触 到 经 验 设 定 ， 且 难以 保证 获取 全 局 最 优 解 。 文 献 [3] 提 出 一 种 利 
敏感 内 容 的 图 像 信息 。 尤 其 对 于 特定 人 群 而 言 ， 这 些 敏 用 基于 支持 向 量 机 (support vector machine, SVM) 的 敏感 图 像 
感 内 容 的 图 像 将 对 其 成 长 发 展 造成 严重 的 、 不 可 道 的 误导 。 快速 过 滤 算 法 ， 采 用 混合 肤色 模型 实现 裸露 皮肤 区 域 快 速 检 
自 20 世纪 90 年 代 中 期 以 来 ， 敏 感 内 容 图 像 在 生成 、 传 播 与 测 ， 从 而 提取 人 脸 位 置 、 形 状 和 图 像 背 景 等 特征 ,但 SVM 算 
存储 等 环节 已 发 生 了 巨大 的 变化 ， 从 原先 基本 隐蔽 的 内 容 交 ”法 难以 适用 于 样 本 数量 较 多 情 ， 即 对 计算 机 内 存 与 运算 时 
换 演变 为 大 规模 的 海量 数据 共享 。 因此， 针对 互联 网 中 存在 间 提 出 较 高 要 求 。 类 似 关 于 敏感 内 容 图 像 检 测 的 相关 工作 参 


的 海量 敏感 图 像 内 容 进行 准确 甄别 和 检测 具有 十 分 重大 的 研 。 见 文献 [4~7]。 此 外 ， 上 述 文献 并 未 考虑 政府 管控 背景 下 的 敏 

究 意 义 。 感 内 容 检测 技术 ， 即 无 法 对 敏感 内 容 图 像 进行 人 为 的 干预 检 
近年 来 ， 国 内 外 众多 科研 人 员 提 出 了 敏感 图 像 内 容 检测 。 测 。 

算法 。 例 如 ， 文 献 [1] 利 用 深度 可 分 离 卷 积 神 经 网 络 和 针对 上 述 问 题 ， 本 文 提出 一 种 基于 稀 疏 语义 的 双 层 深度 

MobileNet 模型 ， 配 合 GPU 并 行 计算 架构 建立 了 对 敏感 图 像 ” 卷 积 神经 网 络 敏感 内 容 图 像 检 测 方 法 。 其中， 上层 采用 一 般 


有 较 高 准确 甄别 度 的 识别 模型 ,但 所 提 方 法 难以 有 效 杜 别 ”性 的 训练 样本 对 人 工 神经 网 络 进行 训练 ， 实 现 非 敏感 、 特 定 
看 似 无 害 、 隐 蔽 程度 高 的 敏感 图 像 。 文 献 [2] 提 出 一 种 以 数据 。 人 群 以 及 疑似 无 害 三 类 图 像 的 初步 分 类 ;， 下 层 通 过 引入 适当 
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的 政府 代理 机 制 实现 专门 的 针对 特定 人 群 敏感 内 容 图 像 检测 。 记 ， 这 也 是 近 几 年 深度 学 习 理论 在 计算 机 视觉 领域 研究 大 放 
的 适当 调整 。 实 际 算 例 表 明 ， 本 文 提出 的 敏感 内 容 图 像 检 测 。 蜡 彩 的 重要 原因 。 然 而 针对 特定 敏感 群体 〈 如 敏感 人 ) 的 敏 
方法 相 比 现 有 敏感 内 容 图 像 检测 方案 可 更 加 有 效 地 减少 训练 感 内 容 图 像 的 识别 与 检测 ， 不 仅 需 要 关注 图 像 的 检测 分 类 ， 
样本 数量 ， 同 时 降低 检测 误差 。 而 所 提出 的 人 工 干预 机 制 ， 还 需要 对 图 像 内 容 进 行 更 严格 的 控制 与 甄别 ， 这 也 是 目前 下 
可 实现 政府 代理 人 (如 执法 机 构 , 专业 部 门 等 ) 的 灵活 控制 。 向 特定 群体 的 基于 深度 学 习 敏 感 内 容 图 像 检 测 难点 所 在 。 
ve Ee 针对 上 述 实 际 问题 提出 如 下 解决 思路 : 基于 深度 学 习 基 

1 ”图 像 的 稀 玻 语义 表示 本 算法 架构 ， 但 按 弃 从 零 开始 训练 数据 样本 的 传统 方式 ， 神 
为 便于 后 续 神 经 网 络 的 训练 以 及 最 终 将 图 像 分 类 为 敏感 经 网 络 中 各 神经 元 节点 的 权重 系数 采用 来 源 于 源 问题 的 侧面 


内 容 图 像 以 及 非 敏 感 内 容 图 像 ， 本 文 首先 将 图 像 特征 进行 稀 ”数据 进行 初始 化 ， 随 后 使 用 训练 后 〈 即 权重 系数 调整 后 ) 的 
疏 化 表示 。 对 于 包含 个 图 像 特征 的 集合 样本 回 代 至 目标 求解 问题 ， 从 而 提升 敏感 内 容 图 像 间 不 同 旨 
F={f,f, .fi} (1) ” 微 差 别 的 检测 精度 。 遵 循 该 思路 ， 本 文 提出 一 种 基于 深度 卷 

段 定 由 第 i (二 1，2) 类 训练 图 像 生成 的 码 本 为 积 神经 网 络 的 分 层 图 像 检测 方案 。 其 中 ， 上 层 为 权重 系数 确 

定 环 节 , 即 利用 深度 卷 积 神经 网 络 对 一 般 图 像 进行 分 类 检测 ， 


A =[w, Ws 1 Wa EQ O) 


初步 确定 神经 网 络 各 神经 元 节点 权重 ， 下 层 引 入 政府 代理 人 
时 中， Ci 为 第 /个 图 像 特征 类 码 本 的 单词 数目 ， 对 于 样本 图 。 控制 机 制 ， 针 对 特定 人 群 敏 感 内 容 图 像 检测 问题 人 为 地 对 权 
像 %»eQmo ， 其 可 表示 为 省 中 码 本 的 线性 近似 表示 ， 即 重 系数 进行 微调 ， 并 再 度 进行 神经 网 络 的 训练 。 本 文 所 提 方 
a A (GG) 法 的 一 个 显而易见 的 优点 为 :由 于 上 层 伸 进 网 络 已 专门 针对 

B36 网 络 权重 进行 了 初始 化 故 ,下 层 所 需 训练 样本 数量 更 为 精简 。 

2.2 双 层 深度 卷 积 神经 网 络 架构 


[ey 


TH: a =[an, Gi2s aa] <sQa o 更 一 般 地 ， 对 于 天 类 图 像 ， 


提出 的 双 层 深度 CNN 基本 架构 如 图 1 所 示 。 其 中 ， 第 
则 有 4=[41, 42,…, 4K]J， 而 yo 线性 表示 为 一 层 网 络 为 源 问题 求解 网 络 ， 其 基本 目标 ( 即 源 任务 〉 为 对 
Yo-Aa (4) ”图 像 进行 合理 的 分 类 。 一 般 来 说 ， 图 像 检 测 源 任务 需 将 图 像 


其 中 :a=[ai, az .…, ax]，a 是 C1 维 的 稀疏 解 铝 量 ， 为 满足 下 分 类 为 涵盖 家 宠 、 家 庭 用 品 、 食 物 、 交 通 工 具 等 在 内 的 1000 
式 的 最 优 解 中 日 常 类 别 中 。 本 文 所 提 算 法 结构 包含 一 个 初始 化 模块 ，9 
个 处 理 模块 ，2 个 辅助 分 类 器 和 一 个 最 终 分 类 器 。 图 2 则 显 
示 了 每 个 模块 的 技术 细节 。 各 模块 的 主要 功能 解释 如 下 ， 
式 中 ，76 范 数 | 用 于 度量 解 向 量 a 中 非 零 元 素 的 个 数 。 当 初始 化 模块 主要 通过 卷 积 、 池 化 、 局 部 响应 归 一 化 等 操 
解 向 量 a 足够 稀疏 时 ， 采 用 特征 码 本 的 最 优 近 似 线性 表示 即 “作对 输入 的 原始 图 像 进 行 处 理 , 本 文中 采用 7X7 卷 积 内 核对 
为 求解 a 的 最 小 五 范 数 。 因 此 可 以 转换 为 如 下 优化 问题 ， 原始 图 像 进行 解析 ， 而 后 逐步 采用 卷 积 、 规 范 化 和 数据 池 化 
OP : minld 操作 进行 数据 量化 加 工 。 图 像 初 始 化 操作 完成 后 得 到 的 数据 
通过 7 个 核心 的 特征 学 习 模块 进行 学 习 与 训练 ， 每 个 模块 都 
根据 拉 格 朗 日 定理 ,优化 问题 式 (6) 可 进一步 通过 优化 求 。 “可 看 成 一 个 小 型 神经 网 络 ， 可 实现 图 像 分 类 源 任务 中 特定 图 
解 如 下 的 目标 函数 ， 像 特征 与 图 像 属性 的 检测 。 
除了 7 个 特征 学 习 模 块 之 外 ， 本 文 另外 在 第 3 和 第 6 个 
| (7) 特征 学 习 模 块 后 设置 了 两 个 辅助 分 类 器 以 便 通过 网 络 放大 梯 
其 中 ， 参 数 1>0 是 逼近 项 和 稀 琉 项 之 问 的 平衡 因子 。 度 信和 号， 实现 早期 特征 数据 的 突出 显示 。 与 特征 学 习 模块 类 
基于 稀 政 语义 表示 的 物理 意义 为 ， 当 向 量 a 的 非 零 系数 。“ 似 ， 这 两 个 辅助 分 类 器 同样 也 是 一 个 小 的 卷 积 网 络 。 此 外 ， 
值 反 映 图 像样 本 与 构建 的 图 像 特征 码 本 的 相关 性 。 相 关 性 越 ”本 文中 辅助 分 类 器 包括 一 个 softmax 分 类 决策 层 和 一 个 数据 


a =argmin|ly- Aal, (5) 


By 


St. : 4=arg min|y— Aall 


SQ 


强 ， 采 用 该 类 码 本 对 图 像 特征 进行 描述 效果 越 好 ， 即 重 构 误 ”缩减 层 ,通过 平均 池 与 5X5 内 核 。 需要 说 明 的 是 ,辅助 分 类 
差 式 (8) 越 小 ， 反 之 则 钩 虫 误差 越 大 。 器 仅 在 训练 期 间 使 用 ， 而 在 测试 期 间 则 会 移 除 。 

ay a 最 终 分 类 器 的 基本 功能 是 分 类 。 在 一 般 性 的 源 问题 中 ， 

最 终 分 类 器 包含 一 个 数据 缩减 层 ， 通 过 内 核 的 平均 池 、 全 连 


Si 履 化 和 具有 softmax 损失 的 线性 层 , 实现 1000 种 图 像 类 型 的 

.UR OD 辨识 。 然 而 考虑 到 本 文中 的 两 个 目标 问题 即 非 敏感 内 容 和 

2.1 问题 分 析 特定 人 群 敏感 内 容 图 像 检 测 ), 本 文 将 最 终 分 类 器 采用 径 向 基 
传统 图 像 识别 算法 通过 提取 颜色 、 形 状 、 纹 理 以 及 其 他 函数 (radial basis function，RBF) 内 核 的 双向 非 线 性 SVM 

人 工 描述 项 的 图 像 特征 来 区 分 图 像 之 间 的 细微 差别 ， 但 应 用 ”进行 设计 ， 其 原因 在 于 ， 当 执行 针对 特定 群体 的 敏感 内 容 图 

此 类 方法 筛选 无 害 和 非 敏感 内 容 是 极其 困难 的 。 一 种 简便 的 像 检测 时 ， 使 用 该 分 类 器 具有 更 高 的 检测 辨识 率 。 

方法 是 通过 检测 因特网 下 载 的 数据 量 大 小 与 相关 服务 进行 标 


初 风 化 | [一 一 一 等 征 学 本 | | 等 征 学 可 | | 特征 学 习 | 转 全 学习 竺 全 学 ， 天 分 
| 初始 化 一 所 及 2 Wt 池 化 “” 模块 妇 -人 入 纪 cab 模块 如 ~ 池 化 A 


图 1 对 象 分 类 源 问题 的 所 选 架构 概述 


Fig. 1 Overview of selected architecture for object classification problem 
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初始 化 模块 5 7 
图 > A 卷 积 大 区 域 回 。 ”完全 
像 < < HReLU 时 入 池 。 复 规范 连接 
输入 4 -< 
! 1*1 六 村 
人 3 33 国志 ) 合 
I 7 rT ~ A 
> 稀 疏 语义 分 析 < 平均 池 SUV-RBF Soft-Max 


始 模 块 


S*5. 


图 2 组 成 所 选 架构 不 同 模块 的 详细 信息 
Fig.2 Details ofthe different modules of the selected architecture 
2.3 ”上层 源 问题 网 络 训练 a) 给 定 一 个 包含 特定 人 群 敏感 内 容 和 非特 定 人 群 敏感 内 
针对 源 问题 的 神经 网 络 训练 样本 大 约 需 要 120 万 幅 包 含 。 容 的 图 像 集合 ， 使 用 训练 后 的 神经 网 络 提取 其 图 像 特征 并 使 
1000 种 不 同 种 类 的 图 像 。 此 过 程 中 采用 带动 量 〈 设 为 0.9) 用 这 些 示例 图 像 进行 非 线 性 SVM 分 类 器 的 训练 。 为 训练 
的 异步 随机 梯度 下 降 优 化 算法 以 及 固定 学 习 速 率 〈 每 隔 8 个 SVM 分 类 器 , 本 文 在 可 用 的 训练 集中 进行 5 次 交叉 验证 策略 ， 
学 习 周 期 使 学 习 速 率 下 降 4%)。 源 问题 网 络 训 练 阶 段 ， 使 用 并 采用 网 格 化 搜索 方式 以 寻找 最 佳 分 类 参数 CE {2“ cEe[-5， 
两 个 辅助 分 类 器 对 每 幅 图 像 的 观测 信息 损失 量 乘 以 权重 系数 -3, 一 1)..…., 15]}) 以 及 ET2iE[15, 13, .…, 3]}。 最 终 获 得 的 
0.3 后 附加 到 最 终 分 类 器 的 观测 信息 损失 量 中 。 为 收集 更 多 第 一 组 SVM 分 类 器 参数 为 y=0.0078125 以 及 C=8.0。 该 检测 
的 训练 样本 ， 采 用 旋转 、 镜 像 和 裁剪 但 不 包括 缩放 、 光 度 畸 网 络 可 称 为 初级 检测 器 ， 可 检测 非 敏感 内 容 图 像 ， 还 在 某 种 
变 等 操作 对 初始 池 进 行动 态 扩 充 。 此 外 ， 本 文中 采用 多 项 式 ， 程度 上 检测 特定 人 和 群 敏感 内 容 图 像 ， 但 此 时 的 神经 网 络 仍 不 
学 习 速 率 衰 减 策 略 来 代替 阶 跃 变化 的 学 习 速 率 衰 减 策略 ， 从 备 最 终 的 针对 敏感 群体 的 敏感 内 容 图 像 的 检测 内 容 。 
而 达到 4 倍 甚至 更 快 的 训练 速度 。 b) 在 将 初始 针对 图 片 分 类 的 神经 网 络 调整 为 敏感 内 容 分 
上 层 神 经 网 络 的 训练 步骤 为 : 对 于 一 组 给 定 的 训练 输入 类 检测 的 神经 网 络 后 ， 本 文 重点 关注 将 神经 网 络 进一步 微调 
样本 ， 所 有 的 图 像 均 被 首先 采用 保持 纵横 比 的 方式 重新 调整 至 具备 针对 敏感 群体 的 敏感 内 容 图 像 检测 ,为 此 提出 两 种 解 
大 小 ， 且 所 有 输入 样本 图 像 的 大 小 大 于 本 文 所 设 定 的 输入 浆 决 途径 。 对 于 第 一 种 解决 途径 ， 从 受过 对 象 分 类 训练 的 网 络 
值 (224x224 像素 ); 随后 ， 图 像 被 进一步 裁剪 至 特定 卷 积 网 开始 ， 对 其 学 习 的 权重 进行 微调 ， 接 收 一 系列 标记 为 敏感 图 
络 所 需 的 形状 。 值 得 一 提 的 是 ， 对 输入 样本 图 像 的 预 处 理 过 ” ” 像 和 非 敏 感 图 像 内 容 ， 并 将 使 用 的 图 像 作 为 输入 反 向 传播 。 
程 无 论 是 对 于 源 问题 实现 图 像 的 基本 分 类 以 及 针对 特定 群体 与 前 述 内 容 一 致 ， 当 网 络 训练 收敛 得 到 的 权重 可 实现 针对 


Ca 


的 图 像 检测 分 类 都 是 完全 相同 的 。 标 问 题 《 即 特定 人 群 敏感 内 容 图 像 检测 ) 的 检测 是 ， 将 最 后 
2.4 ”迁移 学 习 与 针对 目标 问题 的 调整 策略 一 层 的 分 类 器 替换 为 具有 RBF 内 核 的 SVM 分 类 器 。 本 文 称 
当 经 过 训练 的 神经 网 络 可 对 1000 种 目标 类 别 中 的 日 此 时 的 第 二 层 神 经 网 络 为 第 一 类 特定 人 群 敏感 内 容 图 像 检测 


图 像 进 行 准 确 分 类 后 ， 本 文 进一步 提出 针对 目标 检测 问题 
学 习 权重 进行 微调 ， 其 目的 是 通过 使 用 相同 的 网 络 架构 进 
针对 特定 群体 的 敏感 图 像 检 测 。 本 文中 下 层 目标 本 文 求解 一 特定 人 群 敏感 内 容 图 像 检测 )。 
络 的 神经 元 权重 并 非 从 头 开始 训练 来 得 到 ， 而 是 采用 两 对 于 第 二 种 解决 方案 ， 本 文 从 网 络 微调 到 非 敏感 内 容 检 
softmax 分 类 器 〈 即 输出 非 敏感 图 像 或 特定 人 群 敏感 内 容 )， 测 问题 开始 ， 并 对 其 权重 进行 微调 ,接收 一 系列 标记 为 SEIC 
并 对 初始 权重 进行 微调 ， 并 将 标记 为 非 敏感 或 特定 人 群 敏感 ” 和 非 SEIC 内 容 的 图 像 ， 并 再 次 使 用 反 向 传播 。 与 前 述 内 容 


器 〈 称 为 方案 1)。 这 是 由 于 此 时 针对 目标 的 特定 人 群 敏感 内 
容 图 像 检测 是 通过 从 源 问 题 直 接 调整 过 来 的 (图 像 种 类 分 类 


车 避 村 否 妹 


反 
的 系列 图 像 作 为 输入 进行 反 向 传播 。 此 外 ， 两 个 辅助 分 类 器 一致 ， 当 网 络 训练 收敛 得 到 的 权重 可 实现 针对 目标 问题 〈 即 
中 同样 采用 两 路 softmax 分 类 函数 。 特定 人 群 敏感 内 容 图 像 检 测 ) 的 检测 是 ， 将 最 后 一 层 的 分 类 
器 
容 


当 重 新 调整 权重 后 的 网 络 能 够 准确 进行 非 敏感 内 容 图 像 ”器 蔡 换 为 具有 了 RBF 内 核 的 SVM 分 类 器 。 本 文 称 此 时 的 第 二 
的 检测 时 ( 即 网 络 收敛 时 )， 最 后 的 分 类 函数 采用 带 RBF 内 ” 层 神 经 网 络 为 第 二 类 特定 人 群 敏感 内 容 图 像 检 测 器 ( 称 为 方 
核 的 SVM 分 类 器 进行 代 蔡 。 此 项 操作 使 得 深度 学 习 神 经 网 。 案 2)。 这 是 由 于 本 文 使 用 了 两 个 步骤 进行 权重 的 调整 《图 像 
络 具有 专门 针对 非 敏感 内 容 图 像 检 测 的 权重 ， 并 可 使 神经 网 。 种 类 分 类 一 非 敏 感 内 容 检测 一 特定 人 群 敏感 内 容 图 像 检测 )。 
络 工作 于 非 敏 感 内 容 图 像 分 类 的 特征 提取 器 ， 而 SVM 分 类 对 于 给 定 的 针对 特定 人 群 敏感 内 容 图 像 或 非特 定 人 群 敏 
器 则 在 这 些 特征 之 上 进行 特定 问题 求解 模型 的 学 习 。 由 于 本 感 内 容 图 像 集 合 ， 本 文 使 用 方案 1 或 方案 2 中 的 训练 后 的 神 
文 的 最 终 目 标 值 对 特定 人 群 敏感 图 像 进行 检测 ， 故 可 将 非 敏 。 经 网 络 进行 图 像 特 征 的 提取 ， 并 采用 这 些 图 像 实例 进行 非 线 


感 内 容 图 像 检 测 作为 神经 网 络 工作 可 靠 性 的 测试 实例 ， 通 过 ”性 SVM 分 类 器 的 训练 。 对 于 训练 过 程 ， 本 文 同样 采用 可 用 
输入 特定 人 群 敏感 图 像 和 非特 定 人 群 敏感 图 像 实例 ， 进 行 图 ”的 数据 集 进 行 5 次 交叉 验证 ， 并 采用 网 格 化 搜索 方式 以 寻找 
像 特征 量 


的 提取 以 及 特定 人 群 敏感 图 像 检 测 的 SVM 分 类 器 。 最 佳 分 类 参数 CE {2°: cE[-5, -3, 一 1,...,15]}) 以 及 EL 
训练 。 有 具体 训练 步骤 如 下 : E[15, 13, ..…, 3]}。 最 终 计算 得 到 的 第 一 组 SVM 分 类 器 参数 
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为 y=0.0078125 以 及 C=0.5。 视频 长 度 从 6s 到 33 min 不 等 。 本 文 进一步 将 原 视频 分 解 为 
2.5 样本 数据 的 扩充 图 像 帧 ， 从 而 得 到 共计 58 971 张 图 像 ， 其 中 33 723 张 图 像 
即便 在 对 神经 网 络 权重 进行 微调 而 不 是 重新 开始 训练 ， 包含 敏感 图 像 内 容 ， 即 敏感 图 像 和 非 敏 感 图 像 内 容 的 比例 分 
同样 需要 大 量 的 样本 数据 。 因 此 ， 针 对 本 文 所 提 双 层 人 工 神 ” 别 为 57% 和 43%。, 图 3 示 出 了 所 选 数据 集 的 部 分 示例 帧 。 共 


经 网 络 ， 本 文 提 出 如 下 解决 方案 以 实现 在 权重 系数 重新 调整 计 依 据 上 节 所 述 算法 步骤 ， 本 文中 将 数据 集 分 为 训练 集 ( 含 
时 的 样本 数据 扩充 。 其 中 ， 由 于 用 于 微调 的 数据 集 很 少 包 含 ”33 646 个 图 像 )、 验 证 集 ( 含 5 938 个 图 像 ) 和 测试 集 〈 含 
实际 负面 的 例子 ， 故 1 i 初始 训练 中 进 一 增强 了 非 敏 感 特定 。 ”19 387 个 图 像 ) 三 种 类 型 。 

人 和 群 内 容 具 体 是 指 非 敏感 图 片 。 因 此 ， 与 从 原始 图 像 生成 额 对 于 敏感 内 容 图 像 的 分 类 检测 ， 首 先 使 用 训练 集 对 卷 积 
外 图 像 〈 如 旋转 、 镜像 或 是 调整 对 比 度 和 等 ) 不 同 ， 本 文 所 使 ” 神经 网 络 进行 预 训练 ， 从 而 得 到 卷 积 神经 网 络 中 的 各 项 关键 


用 的 数据 集 采用 来 自 Microsoft 公共 对 象 数据 集 中 的 20000 参数。 随后 使 用 验证 数据 集 对 上 述 参数 进行 优化 调整 。 最 后 
个 图 像 , 其 中 包含 16000 个 共计 91 个 常见 类 别 。 对 于 第 一 层 ”利用 测试 集 进行 算法 有 效 性 验证 其 中 ， 本 文采 用 标 
源 问 题 求解 ， 本 文 不 进行 数据 扩充 ， 而 对 于 第 二 层 目标 问题 。 准 的 随机 5X2 交叉 验证 机 制 , 通 过 进行 随机 拆 分 数据 集 的 方 
的 求解 ， 本 文 进行 有 样本 数据 扩充 以 及 无 样本 数据 扩充 的 两 。 式 进 行 算法 有 效 性 的 评估 。 


组 实验 。 3.2 分 类 指标 
人 .全 采用 Pornography-2 数据 集 的 默认 图 像 分 类 度量 值 ， 即 
3 ”图像 分 类 实验 参数 设置 归 一 化 度量 ACC 和 瑟 度 量 。 其中，ACC 表征 正确 分 类 图 像 
3.1 数据 集 的 百分比 ， 而 度量 则 指 的 是 准确 率 (precision) 与 召回 率 
为 验证 本 文 所 提 图 像 分 类 检测 算法 的 有 效 性 ， 本 文选 用 (recall) 间 的 加 权 调 和 平均 值 ， 如 式 (9) 所 示 ， 其 中 f=2。 
Pornography-2k 数据 集 鳃 为 实验 对 象 进行 分 析 。 其 中 包括 近 =(1+ 2)x precision x recall (9) 
140 了 的 1000 个 含 敏感 内 容 和 1000 个 不 含 敏感 内 容 的 视频 ， PF? xprecision + recall 


图 3” Pornography-2 k 数据 集 的 示例 帧 
Fig. 3 Example frame of Pornography-2 k dataset 


3.3 取证 工具 准则 2: 

为 了 评估 所 提 方 案 的 分 类 性 能 ， 选 择 依赖 于 可 视 内 容 的 [max(R,G,B)—min(R,G, B) >15] 和 (11) 
取证 工具 包括 NuDetectivel! ”1 、MediaDetectiveLl0 和 ”Snitch 准则 3: 
Plust111。NuDetective 工具 是 一 种 随时 可 用 于 研究 目的 的 工具 ， [|[R-GP15A(R>G)^(R>B)] (12) 
可 用 于 检测 敏感 图 像 内 容 ， 而 MediaDetective 工具 和 Snitch 其 中 : R、G 和 B 表示 RGB 颜色 空间 中 的 像素 值 ， 其 值 范 围 
Plus 工具 都 属于 商业 解决 方案 ， 其 可 使 检测 图 像 敏 感 内 容 相 。 为 0~255。 为 方便 比较 ， 本 文选 择 了 一 种 被 广泛 使 用 并 且 易 


对 和 集中， 以 上 所 有 均 以 皮肤 检测 器 为 基础 从 而 识别 敏感 于 实施 的 皮肤 检测 器 ， 如 果 图 像 中 的 皮肤 像素 百分比 等 于 或 

内 容 图 像 。 大 于 13%， 则 将 图 像 分 类 为 敏感 图 像 ， 以 此 在 训练 集中 执行 
此 外 ， 对 于 MediaDetective 工具 和 Snitch Plus 工具 ， 图 交叉 验证 ， 以 选择 最 佳 闵 值 。 

像 文件 会 根据 其 对 敏感 图 像 内 容 的 可 疑 程 度 〈 即 概率 ) 进行 3.5 视觉 词 袋 

评级 。 如 果 图 像 的 返回 概率 等 于 或 大 于 50% ， 会 将 该 图 像 标 在 引入 深度 学 习 技 术 之 前 , 视觉 词 袋 (bag of visual words， 

记 为 敏感 图 像 。 而 NuDetective 工具 则 会 为 图 像 分 配 二 进 制 ” BoVW) 031 建 模 方 法 是 最 常用 的 描述 图 像 内 容 的 方法 ， 它 将 

标签 : 正 ( 即 图 像 是 敏感 图 像 ) 或 负 ( 即 图 像 是 非 敏感 图 像 )。 图 像 表 征 为 通过 量化 局 部 描述 符 的 空间 。 
MediaDetective 工具 和 Snitch Plus 工具 有 四 种 预定 义 的 本 文 对 两 种 经 典 的 BOVW 方法 (即便 编码 方法 和 平均 

执行 模式 ， 主 要 取决 于 皮肤 探测 器 的 严谨 程度 ， 在 本 次 实验 池 化 方法 ) 进行 评估 。 首 先 将 图 像样 本 进行 预 处 理 ， 得 到 最 

中 ， 将 会 选择 最 严格 的 执行 模式 ， 同 时 对 NuDetective 工具 大 不 超过 10 万 像素 的 数据 集 , 随后 采用 步 长 分 别 为 4、6、8、 


采用 默认 设置 。 11 和 16 像素 生成 的 24X24、32X32、48X48、68X68 和 96 
3.4 皮肤 检测 器 X96 像素 网 格 进行 图 像 局 部 特征 量 (本 文 使 用 加 速 稳健 特征 
当前 ， 人 们 已 经 提出 了 多 种 方法 来 检测 敏感 图 像 内 容 ， (speeded-up robust features, SURF ) 描述 符 ) 的 提取 ， 并 采 


但 人 类 皮肤 检测 技术 09， 尤其 对 于 基于 颜色 的 检测 技术 , 在 。” 用 主 成 分 分 析 (principal component analysis) 方法 将 SURF 
识别 的 简单 性 和 准确 性 的 提高 上 仍然 具备 挑战 性 。 现 有 方法 ”的 维 数 降低 到 32 维 。 


主要 通过 定义 RGB 颜色 空间 中 的 皮肤 区 域 ， 从 而 提出 皮肤 视觉 词 库 通过 采用 基于 欧 几 里 德 距离 定义 的 K-means 聚 
分 类 。 皮 肤 分 类 模型 可 大 致 分 为 遵循 以 下 三 个 准则 : 类 工具 ,从 超过 100 万 个 随机 抽样 的 PCA 描述 符 中 进行 学 习 ， 
准则 1: 并 从 中 提取 出 2 048 个 视觉 词 , 而 分 类 器 则 采用 SVM 分 类 器 。 
[(R>95)^(G>40)^(B>20)]^ (10) ”默认 情况 下 ， 本 文 使 用 带 RBF 内 核 的 非 线 性 SVM 分 类 器 ， 
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并 采用 网 格 化 搜索 方式 以 寻找 最 佳 分 类 参数 CE {2°: cE[-5， 内 容 检测 的 神经 网 络 检测 精度 。 
-3, 一 1,...,15]}) 以 及 ye {2i:iE[15, 13,..., 3]}。 最 终 计 算得 
到 的 SVM 分 类 器 参数 为 y=0.0078125 以 及 C=32。 
4 ”实验 与 结果 讨论 而 
为 了 验证 所 提 方 法 在 敏感 图 像 检 测 效果 方面 的 优 蜡 性 和 入 
有 效 性 ， 将 通过 设计 实验 与 当前 流行 的 其 他 检测 方法 、 取 证 
和 商业 软件 进行 比较 ， 从 而 根据 检测 敏感 图 像 内 容 的 实 
验 结果 进行 分 析 。 本 文 基于 Maltab 2014a 软件 进行 所 提 相 关 | 
法 的 编写 ， 且 计算 机 配置 为 : 操作 系统 Windows 10， 内 存 ° BoVMI[15] 文献 [14] 非得 探测 器 特 妾 评测 器 
2 GB , 硬盘 256 GB, CPU 型 号 为 13-3230M (2.6 GHz, 双核 )， 和 
GPU 型 号 为 Nvidia GeForce GT 740M (2 GB)。 图 4 各 探测 器 误差 降低 率 
4.1 非 敏感 内 容 检测 结果 Fig.4 Error reduction rate of detectors 


首先 利用 Pornography-2k 数据 集 (共计 257 522 帧 ) 对 5 结束语 
不 同 的 非 敏 感 内 容 图 像 检 测 性 能 进行 分 析 。 本 文选 用 文献 [14] 四 二 

所 提 的 检测 方法 与 本 文 所 提 方 法 进行 对 比 。 表 1 给 出 了 两 种 深度 卷 积 神经 网 络 进行 图 像 分 类 虽 具 有 较 高 的 检测 精度 ， 
方法 下 的 ACC 度量 指标 和 度量 指标 ， 可 以 看 出 ， 本 文 所 但 前 期 针对 神经 网 络 的 训练 需要 大 量 的 原始 样本 数据 制约 了 
提 方 法 对 图 像 的 检测 精度 优 于 文献 [14] 检 测 方法 。 而 在 计算 其 在 敏感 内 容 图 像 中 的 应 用 。 针 对 这 一 问题 ， 本 文 提出 了 一 
资源 方法 ， 本 文 所 提 方 法 同样 更 具 经 济 性 ， 文 献 [14] 采 用 16 个 基于 稀 琉 语义 与 深度 卷 积 神经 网 络 相 结合 的 解决 方案 ， 并 
个 GPU 集群 进行 神经 网 络 的 训练 , 而 本 文 则 仅 采 用 单个 GPU。 提出 双 层 神经 网 络 算法 进行 目标 问题 求解 时 神经 元 权重 系数 
此 外 ， 虽 然 两 个 网 络 在 实际 非 敏 感 内 容 检测 方面 具有 相似 的 的 优化 求解 。 仿 真 算 例 结 果 表 明 ， 本 文 所 提 方 法 在 检测 精度 


检测 性 能 ， 但 本 文 所 提 方 法 在 拦截 敏感 内 容 图 像 的 检测 精度 。 上 比 常规 算法 具有 较 大 提升 ， 针 对 特定 人 群 敏感 内 容 图 像 的 
比 文献 [14] 高 3.5%。 检测 性 能 由 于 常规 基于 视觉 词 袋 以 及 基于 皮肤 分 类 的 检测 方 
表 1 敏感 内 容 检测 结果 法 。 
Table 1 Sensitive content detection results /% e 
= 比较 方法 TPR TNR Fh ACC 参考 文献 ; 
文献 [14] 方 法 94.5 82.3 94.1 88.4 [1] 邢 艳 芳 ,卓文 仿 ， 段 红 秀 . 基于 MobileNet 的 敏感 图 像 识别 系统 设计 
提出 的 方法 94.8 88.2 94.8 91.5 [四 . 电视 技术 , 2018, 42(7): 53-56. (Xing Yanfeng, Zhuo Wenxin, Duan 
TPR 表示 真正 值 率 ;， TNR 表示 真 负 值 率 ;， ACC 表示 精 Hongxiu. Design of sensitive image recognition system based on 
确 度 ; 丈 表 示 丈 测量 值 MobileNet [J]. Television Technology, 2018, 42(7): 53-56. ) 
4.2 特定 人 群 敏 感 图 像 检 测 [2] 余 明 扬 ,， 羊 网， 王 一 军 . 基于 卷 积 神经 网 络 的 色情 图 像 检 测 [J]. 计 
7 进一步 考虑 本 文 的 最 终 目标 ， 即 敏感 内 容 图 像 检 测 。 为 算 机 应 用 与 软件 , 2018, 35(1): 232-236. (Yu Mingyang, Yang Peng， 
> ¢ 对 比 说 明 本 文 方法 的 优越 性 ， 采 用 表 2 中 所 示 的 常用 方法 作 Wang Yijun. Pornographic image detection based on convolution neural 
© 为 对 比 加 以 说 明 。 如 表 2 所 示 ， 本 文采 用 的 基于 皮肤 检测 器 network [J]. Computer Applications and Software, 2018, 35(1): 
ee 的 系统 在 性 能 上 相 比 较 与 其 他 系统 有 了 相当 大 的 改善 ， 对 特 232-236. ) 
定 人 群 敏感 内 容 的 检测 精度 有 了 较 大 提升 。 [3] 周 建 政 , 陈 法 叶 ， 姚 金 良 . 一 种 基于 SVM 的 网 络 不 良 图 像 过 滤 方 法 
针对 非 敏 感 内 容 的 图 像 分 类 性 能 ， 与 BoVW 和 文献 [14] [四 . 计算 机 应 用 与 软件 , 2012, 29(5): 251-253. (Zhou Jianzheng, Chen 
中 雅虎 公司 开发 算法 相 比 ， 其 ACC 指标 和 情 指标 分 别提 升 Faye, Yao Jinliang. A network bad image filtering method based on 
了 7.7% 和 6.5%, 而 针对 特定 人 群 敏感 内 容 的 图 像 分 类 性 能 ， SVM [J]. Computer application and software, 2012, 29(5): 251-253. ) 
本 文 所 提 分 类 算法 较 之 于 文献 [14]， 其 ACC 指标 和 F 指标 [4] 王 景 中 , 周 靖 . 基于 比例 特征 的 网 络 不 良 图 像 过 滤 算 法 研究 [四 计 
则 分 别提 升 了 8.6% 和 7.0%。 算 机 工程 与 科学 , 2016, 38(3): 514-519. (Wang Jingzhong, Zhou Jing. 
表 2 敏感 图 像 内 容 检测 结果 Research on network bad image filtering algorithm based on 
Table 2 Results of sensitive image content detection /% proportional feature [J]. Computer Engineering and Science, 2016, 
比较 方法 TPR TNR Fh ACC 38(3): 514-519. ) 
BoVWI5] 69.9 66.6 71.1 68.3 [5] Bissias G, Levine B, Liberatore M, et al. Characterization of contact 
文献 [14] 80.1 74.9 80.7 77.5 offenders and child exploitation material trafficking on five peer-to-peer 
非 敏感 内 容 分 类 器 83.0 77.8 83.4 80.4 networks. [J]. Child Abuse & Neglect, 2015, 52: 185-199. 
特定 人 群 敏感 内 容 分 类 器 87.2 85.0 87.7 86.1 [6] 刘 兴 旺 , 王 江 晴 , 徐 科 . 一 种 融合 AutoEncoder 与 CNN 的 混合 算法 
图 4 示 出 了 不 同 分 类 器 图 像 检测 误差 率直 方 图 ， 本 文 所 用 于 图 像 特征 提取 [ 思 . 计算 机 应 用 研究 ,2017，34(12): 3839-3843. 
提 特 定 人 群 敏感 内 容 检测 方法 与 基于 皮肤 检测 方法 相 比 ， 其 (Liu Xingwang, Wang Jiangqing, Xu Ke. A hybrid algorithm combining 
误差 率 由 46.9% 降 低 至 3.9%， 误差 率 减少 了 70.4%; 而 与 基 AutoEncoder and CNN for image feature extraction [J]. Application 
于 BoVW 的 方法 相 比 ， 误 差 率 则 降低 了 56.2%， 从 而 表明 ， Research of Computers, 2017, 34(12): 3839-3843. ) 
基于 BoVW 技术 的 图 像 检测 精度 比 皮肤 分 类 器 检测 精度 要 ” [7] 胡 长 胜 , 讶 曲 ， 吴 从 中 . 基于 深度 特征 学 习 的 图 像 超 分 辨 率 重建 []]. 
高 ， 而 本 文 基于 深度 卷 积 神经 网 络 的 检测 精度 则 可 进一步 降 自动 化 学 报 , 2017, 43(5): 814-821. (Hu Changsheng, Zhan Shu, Wu 
低 图 像 误 检 率 。 此 外 ， 从 表 2 和 图 4 中 也 可 知 ， 本 文 所 提 的 Zhongzhong. Image super-resolution reconstruction based on depth 
针对 特定 人 群 敏 感 内 容 的 检测 方法 可 进一步 提升 针对 非 敏 感 feature learning [J]. Journal of Automation, 2017, 43(5): 814-821. ) 
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